The number of international benchmarking competitions is steadily increasing in various fields of machine learning (ML) research and practice. So far, however, little is known about the common practice as well as bottlenecks faced by the community in tackling the research questions posed. To shed light on the status quo of algorithm development in the specific field of biomedical imaging analysis, we designed an international survey that was issued to all participants of challenges conducted in conjunction with the IEEE ISBI 2021 and MICCAI 2021 conferences (80 competitions in total). The survey covered participants' expertise and working environments, their chosen strategies, as well as algorithm characteristics. A median of 72% challenge participants took part in the survey. According to our results, knowledge exchange was the primary incentive (70%) for participation, while the reception of prize money played only a minor role (16%). While a median of 80 working hours was spent on method development, a large portion of participants stated that they did not have enough time for method development (32%). 25% perceived the infrastructure to be a bottleneck. Overall, 94% of all solutions were deep learning-based. Of these, 84% were based on standard architectures. 43% of the respondents reported that the data samples (e.g., images) were too large to be processed at once. This was most commonly addressed by patch-based training (69%), downsampling (37%), and solving 3D analysis tasks as a series of 2D tasks. K-fold cross-validation on the training set was performed by only 37% of the participants and only 50% of the participants performed ensembling based on multiple identical models (61%) or heterogeneous models (39%). 48% of the respondents applied postprocessing steps.
translated by 谷歌翻译
手眼校准问题是机器人研究中的重要应用问题。基于双重季节矢量的2个标准,我们为手眼校准问题提出了一种新的双季节优化方法。双重四基因优化问题分解为两个四基因优化子问题。第一个四基因优化子问题控制着机器人手的旋转。可以通过特征值分解或单数值分解有效地求解。如果第一个四基金优化子问题的最佳值为零,则系统无噪音,即,存在``Perfect''机器人手动运动,该机器人手动运动完全满足所有测试的旋转。在这种情况下,我们应用正规化技术来求解第二个子问题以最大程度地减少翻译的距离。否则,我们将修补技术应用于第二个四基因优化子问题。然后求解第二个四基因优化子问题是解决了二次约束二次程序。通过这种方式,我们为手眼校准问题的解决方案集提供了完整的描述。这在手眼校准文献中是新的。还提出了数值结果以显示所提出方法的效率。
translated by 谷歌翻译
因果推论在电子商务和精确医学等各个领域都有广泛的应用,其性能在很大程度上取决于对个体治疗效果(ITE)的准确估计。通常,通过在其各个样品空间中分别对处理和控制响应函数进行建模来预测ITE。但是,这种方法通常会在实践中遇到两个问题,即治疗偏见引起的治疗组和对照组之间的分布分布以及其人口规模的显着样本失衡。本文提出了深层的整个空间跨网络(DESCN),以从端到端的角度进行建模治疗效果。 DESCN通过多任务学习方式捕获了治疗倾向,反应和隐藏治疗效果的综合信息。我们的方法共同学习了整个样品空间中的治疗和反应功能,以避免治疗偏见,并采用中间伪治疗效应预测网络来减轻样品失衡。从电子商务凭证分销业务的合成数据集和大规模生产数据集进行了广泛的实验。结果表明,DESCN可以成功提高ITE估计的准确性并提高提升排名的性能。发布生产数据集和源代码的样本是为了促进社区的未来研究,据我们所知,这是首个大型公共偏见的因果推理数据集。
translated by 谷歌翻译
知识蒸馏在模型压缩方面取得了显着的成就。但是,大多数现有方法需要原始的培训数据,而实践中的实际数据通常是不可用的,因为隐私,安全性和传输限制。为了解决这个问题,我们提出了一种有条件的生成数据无数据知识蒸馏(CGDD)框架,用于培训有效的便携式网络,而无需任何实际数据。在此框架中,除了使用教师模型中提取的知识外,我们将预设标签作为额外的辅助信息介绍以培训发电机。然后,训练有素的发生器可以根据需要产生指定类别的有意义的培训样本。为了促进蒸馏过程,除了使用常规蒸馏损失,我们将预设标签视为地面真理标签,以便学生网络直接由合成训练样本类别监督。此外,我们强制学生网络模仿教师模型的注意图,进一步提高了其性能。为了验证我们方法的优越性,我们设计一个新的评估度量称为相对准确性,可以直接比较不同蒸馏方法的有效性。培训的便携式网络通过提出的数据无数据蒸馏方法获得了99.63%,99.07%和99.84%的CIFAR10,CIFAR100和CALTECH101的相对准确性。实验结果表明了所提出的方法的优越性。
translated by 谷歌翻译
零射击学习(ZSL)通过将语义知识转移到看不见者的语义知识来解决新的类识别问题。通过单独使用单向关注,现有的基于关注的模型在单个图像中努力学习劣势区域特征,这忽略了视觉特征的可转换性和辨别属性定位。在本文中,我们提出了一个跨属性引导的变换器网络,称为Transzero ++,以改进可视化功能,并学习精确的属性本地化,用于ZSL中的语义增强的可视嵌入表示。 Transzero ++由Attribute $ \ LightArrow $ Visual Transformer子网(AVT)和Visual $ \ LightArrow $属性变压器子网(增值税)组成。具体而言,AVT首先采用功能增强编码器来缓解交叉数据集问题,并通过减少区域特征之间的缠绕的相对几何关系来提高视觉特征的可转换性。然后,使用属性$ \ lightArrow $可视解码器来本地化与基于属性的可视特征表示的给定图像中的每个属性最相关的图像区域。类似地,VAT使用类似的功能增强编码器来改进视觉功能,这些功能进一步应用于Visual $ \ lightarrow $属性解码器,以学习基于Visual-基的属性功能。通过进一步引入语义协作损失,两个属性引导的变压器通过语义协作学习互相教导学习语义增强的视觉嵌入。广泛的实验表明,Transzero ++在三个挑战ZSL基准上实现了新的最先进的结果。该代码可用于:\ url {https://github.com/shiming-chen/transzero_pp}。
translated by 谷歌翻译
联合学习(FL)可用于通过使多个机构协作,改善磁共振(MR)图像重建的数据隐私和效率,而无需聚合本地数据。然而,由不同MR成像协议引起的域移位可以显着降低FL模型的性能。最近的流程倾向于通过增强全局模型的概括来解决这一点,但它们忽略了特定于域的特征,这可能包含有关设备属性的重要信息,并且对本地重建有用。在本文中,我们提出了一种针对MR图像重建(FEDMRI)的特异性保存流算法。核心思想是将MR重建模型划分为两个部分:全局共享编码器,以在全局级别获取概括的表示,以及客户特定的解码器,以保留每个客户端的特定于域的属性,这对于协作很重要当客户具有独特的分发时重建。此外,为了进一步提高全局共享编码器的收敛,当存在域移位时,引入加权对比正规化以在优化期间直接校正客户端和服务器之间的任何偏差。广泛的实验表明,我们的Fedmri的重建结果是最接近多机构数据的地面真理,并且它优于最先进的FL方法。
translated by 谷歌翻译
人员搜索旨在共同本地化和识别来自自然的查询人员,不可用的图像,这在过去几年中在计算机视觉社区中积极研究了这一图像。在本文中,我们将在全球和本地围绕目标人群的丰富的上下文信息中阐述,我们分别指的是场景和组上下文。与以前的作品单独处理这两种类型的作品,我们将它们利用统一的全球本地上下文网络(GLCNet),其具有直观的功能增强。具体地,以多级方式同时增强重新ID嵌入和上下文特征,最终导致人员搜索增强,辨别特征。我们对两个人搜索基准(即Cuhk-Sysu和PRW)进行实验,并将我们的方法扩展到更具有挑战性的环境(即,在MovieIenet上的字符搜索)。广泛的实验结果表明,在三个数据集上的最先进方法中提出的GLCNET的一致性改进。我们的源代码,预先训练的型号,以及字符搜索的新设置可以:https://github.com/zhengpeng7/llcnet。
translated by 谷歌翻译
几乎所有知识库的陈述都有时间范围,在此期间它们有效。因此,在时间知识库(TKB)上的知识库完成(KBC),其中每个陈述\ TEXTIT {MAY}与时间范围相关联,引起了不断的关注。先前作品假设TKB \ Texit {必须}中的每个语句都与时间范围相关联。这忽略了kB中常规缺少的范围信息。因此,在此之前的工作通常不能处理通用用例,其中TKB由具有/没有已知的时间范围的时间语句组成。为了解决这个问题,我们建立了一个名为time2box的新知识库嵌入框架,可以同时处理不同类型的atemporal和时间陈述。我们的主要洞察力是时间查询的答案始终属于时间不可知的对应物的答案子集。换句话说,时间是一个过滤器,有助于在某些时期内挑选答案。我们介绍框以将一组答案实体代表到一个时间不可知的查询。时间过滤功能由这些框的交叉点建模。此外,我们概括了关于时间间隔预测的当前评估协议。我们描述了两个数据集上的实验,并表明所提出的方法优于链路预测和时间预测上的最先进的(SOTA)方法。
translated by 谷歌翻译
在更广泛的地球科学中对人工智能模型的常见需求是表示和编码各种类型的空间数据,例如点(例如,兴趣点),折线(例如,轨迹),多边形(例如,行政区域),图(例如,运输网络)或栅格(例如,遥感图像),隐藏的嵌入空间中,使得它们可以容易地结合到深度学习模型中。一个基本步骤是将单个点位置编码为嵌入空间,使得该嵌入对下游机器学习模型(例如支持向量机和神经网络)进行学习友好。我们调用此过程位置编码。但是,对位置编码的概念,其潜在应用以及需要解决的关键挑战缺乏系统审查。本文旨在填补这一差距。我们首先提供了一个正式的编码定义,并讨论了从机器学习角度从机械研究编码的必要性。接下来,我们提供关于当前地点景观研究的全面调查和讨论。我们根据其输入和编码方法将位置编码模型分类为不同类别,并基于它们是参数,多尺度,距离保存和方向意识的方式进行比较。我们证明现有的位置编码模型可以在共享配方框架下统一。我们还讨论了不同类型的空间数据的位置编码的应用。最后,我们指出了在未来需要解决的研究中的几个挑战。
translated by 谷歌翻译
风险的准确器官(OAR)分割对于减少治疗后并发症的放射治疗至关重要。达人指南推荐头部和颈部(H&N)区域的一套超过40桨的桨,然而,由于这项任务的可预测的禁止劳动力成本,大多数机构通过划定较小的桨子和忽视的少数,选择了大量简化的协议与其他桨相关的剂量分布。在这项工作中,我们提出了一种使用深度学习的新颖,自动化和高效的分层OAR分段(SOARS)系统,精确地描绘了一套全面的42 H&N OAR。 SOARS将42桨分层进入锚,中级和小型和硬质子类别,通过神经结构搜索(NAS)原则,专门为每个类别提供神经网络架构。我们在内在机构中使用176名培训患者建立了SOAR模型,并在六个不同的机构中独立评估了1327名外部患者。对于每个机构评估,它始终如一地表现出其他最先进的方法至少3-5%的骰子得分(在其他度量的相对误差减少36%)。更重要的是,广泛的多用户研究明显证明,98%的SOARE预测只需要非常轻微或没有直接临床验收的修订(节省90%的辐射脑神经工作负载),并且它们的分割和剂量准确度在于或小于帧 - 用户的变化。这些调查结果证实了H&N癌症放射疗法工作流OAR描绘过程的强烈临床适用性,提高了效率,全面性和质量。
translated by 谷歌翻译